English

中文处理速度有望大幅提高

1999-11-03 来源:光明日报 路 沙 我有话说

用拼音法输入汉字要选字,笔输入要一笔一划地写,语音输入识别率也不甚理想。随着计算机和网络的普及,特别是嵌入式计算环境日益广泛,如何提高中文处理的效率已成为一个迫切需要解决的问题。最近中文之星软件开发公司研制成功“中文之星语言模型,将有望大大提高各种应用中处理中文的效率。

为了建立这一模型,他们收集了25亿多字的汉语语料,覆盖经济、政治、文化、科技、教育、军事、体育、法律、社会新闻等各个领域,这是迄今为止规模最大的中文语料库,过去的语料库最多只有几千万字。通过应用马尔科夫理论,对实际语料中的上下文和语句关系进行量化的统计、分析、提炼,最后形成“中文之星语言模型,这一模型是对实际语言的数字化记录。

目前,他们已研制成功基于“中文之星语言模型的音字转换系统,经由信息产业部、中国科学院、教育部等计算机中文信息处理专家组成的鉴定委员会对经济、教育、哲学3个专业15万字语料的测试表明,其单字一选正确达91.85%,整句一选正确达74.82%,并对人名、地名等专有名词有一定处理能力,总体性能达世界领先水平。

“中文之星语言模型不仅可用于PC机的键盘输入、语音识别和手写识别;而且还可为手机、掌上电脑、机顶盒用户提供语音识别、手写识别和小键盘快速输入服务;同时还可用于汉字扫描识别、中文文献自动分类检索、校对、自动翻译;特别是用于中文商业信息自动深度搜索挖掘,如为各类用户提供个性化词汇级别意义的网络信息搜索服务和用户群体信息分析等。

据悉,中文之星软件公司将在年底前向市场推出其正式产品。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有